多模式信息在医疗任务中经常可用。通过结合来自多个来源的信息,临床医生可以做出更准确的判断。近年来,在临床实践中使用了多种成像技术进行视网膜分析:2D眼底照片,3D光学相干断层扫描(OCT)和3D OCT血管造影等。我们的论文研究了基于深度学习的三种多模式信息融合策略,以求解视网膜视网膜分析任务:早期融合,中间融合和分层融合。常用的早期和中间融合很简单,但不能完全利用模式之间的互补信息。我们开发了一种分层融合方法,该方法着重于将网络多个维度的特征组合在一起,并探索模式之间的相关性。这些方法分别用于使用公共伽马数据集(Felcus Photophs和OCT)以及Plexelite 9000(Carl Zeis Meditec Inc.)的私人数据集,将这些方法应用于青光眼和糖尿病性视网膜病变分类。我们的分层融合方法在病例中表现最好,并为更好的临床诊断铺平了道路。
translated by 谷歌翻译
Understanding the ambient scene is imperative for several applications such as autonomous driving and navigation. While obtaining real-world image data with per-pixel labels is challenging, existing accurate synthetic image datasets primarily focus on indoor spaces with fixed lighting and scene participants, thereby severely limiting their application to outdoor scenarios. In this work we introduce OmniHorizon, a synthetic dataset with 24,335 omnidirectional views comprising of a broad range of indoor and outdoor spaces consisting of buildings, streets, and diverse vegetation. Our dataset also accounts for dynamic scene components including lighting, different times of a day settings, pedestrians, and vehicles. Furthermore, we also demonstrate a learned synthetic-to-real cross-domain inference method for in-the-wild 3D scene depth and normal estimation method using our dataset. To this end, we propose UBotNet, an architecture based on a UNet and a Bottleneck Transformer, to estimate scene-consistent normals. We show that UBotNet achieves significantly improved depth accuracy (4.6%) and normal estimation (5.75%) compared to several existing networks such as U-Net with skip-connections. Finally, we demonstrate in-the-wild depth and normal estimation on real-world images with UBotNet trained purely on our OmniHorizon dataset, showing the promise of proposed dataset and network for scene understanding.
translated by 谷歌翻译
人纹理感知是多感官输入的加权平均值:视觉和触觉。当视觉传感机制提取全局特征时,触觉机制通过提取本地特征来补充它。文献中缺乏耦合的视觉效果数据集是研究类似于人类质地知觉的多模式融合策略的挑战。本文介绍了一个视觉数据集,可扩大现有的触觉数据集。我们提出了一种新型的深层融合体系结构,该融合体使用四种类型的融合策略融合了视觉和触觉数据:求和,串联,最大程度和注意力。我们的模型仅在触觉(SVM -92.60%)和仅视觉(FENET -50-50-85.01%)体系结构方面显示出显着的性能改进(97.22%)。在几种融合技术中,注意引导的体系结构可提高分类的精度。我们的研究表明,类似于人类纹理感知,提出的模型选择了两种方式(视觉和触觉)的加权组合,从而导致表面粗糙度分类的精度较高。它选择最大化视觉模态失败的触觉方式的重量,反之亦然。
translated by 谷歌翻译
本文介绍了基于可见性的移动机器人的\传感器\的数学模型。提供类似于针对计算机视觉的针孔摄像机模型的目的,介绍的模型有望提供有用的,理想化的与任务相关信息的特征,可以从其输出或观察值中推断出来。可能的任务包括当在未知环境中部署移动机器人时导航,本地化和映射。这些模型可以在传统的深度传感器之间进行直接比较,并突出显示触摸传感可能与飞行时间或视觉传感器互换的案例,并表征触摸传感提供的独特优势。这些模型包括接触检测,压缩,负载轴承和挠度。该结果可以作为移动机器人传感器融合系统创新触摸传感器设计的基本构建块。
translated by 谷歌翻译
技术在康复领域发挥着重要作用,改善患者结果并降低医疗保健成本。然而,现有的方法缺乏临床验证,鲁棒性和易用性。我们提出Tele-EventNet,这是一个由两个组件组成的新颖系统:实时反馈模型和整体性能评估模型。实时反馈模型展示了对运动正确性的反馈,易于理解使用颜色标记突出显示的指令。整体绩效评估模型学会了联合数据的映射到分数,由临床医生的表现提供。该模型通过从联合数据中提取临床批准的特征来实现这一点。此外,这些特征与AutoEncoder一起编码到较低的尺寸空间。提出了一种新的多尺度CNN-LSTM网络,以通过利用在多个尺度提取的功能来学习对分数的性能数据的映射。所提出的系统显示出高度改善的分数预测和优于最先进的康复模型。
translated by 谷歌翻译